Large Scale Knowledge Washing: 大规模语言模型知识清洗

日期： 2025-1-15
链接： ICLR 2025
标签： LLM 知识遗忘 模型编辑 隐私保护 机器学习安全

核心观点

提出LAW方法，通过约束优化直接修改Transformer MLP层权重，实现大规模敏感知识删除的同时保持模型推理能力。核心创新是将知识"清洗"重新定义为扰动目标知识输出而非简单替换。

模型操作层面： - 目标：GPT-2/GPT-J的MLP前馈网络层 - 方法：多层权重联合更新，分散参数变化影响 - 定位：基于因果跟踪确定关键知识存储层

优化策略： - 双目标函数：最大化目标知识扰动 + 约束其他能力保持 - 初始化：使用MEMIT编辑结果作为warm start - 渐进消除：多轮迭代中动态排除已删除知识

数据集： - zsRE: 19K问答对 - CounterFactual: 21K反事实知识 - Wiki-Latest: 332K Wikipedia三元组（自构建）

基线对比： - 模型编辑：MEMIT, ME-FT - 知识遗忘：FT-UL, WOH, SeUL

评估指标： - 知识遗忘：准确率下降、QA-F1分数 - 能力保持：Lambda/HellaSwag/ARC推理任务

知识清洗效果： - Wiki-Latest数据集：准确率从100%降至19.3%（GPT2-XL） - 优于所有基线方法的遗忘彻底性

推理能力保持： - 推理任务平均准确率仅下降5-10% - 显著优于传统微调方法（常导致模型崩溃）

扩展性验证： - 成功处理30万+规模知识删除 - 计算效率远超重新训练方案

范式转换： - 从确定性替换到随机化扰动 - 从闭式解到约束优化求解

工程优化： - MEMIT初始化策略解决局部最优 - 自适应β参数平衡清洗-保持权衡 - 渐进式处理提升大规模效率

隐私保护： 移除训练数据中的个人敏感信息 版权合规： 删除受保护的文学作品、新闻内容
安全部署： 清理有害或不当知识内容 模型定制： 为特定场景移除不相关知识

适用范围： 当前仅支持三元组格式的结构化知识 模型依赖： 主要在GPT-2/J上验证，对新架构适应性待确认 理论基础： 知识-推理解耦假设缺乏严格理论证明 安全保证： 清洗完整性难以绝对保证，可能存在间接访问路径